iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 20
0
AI & Data

Python零基礎到Kaggle 系列 第 20

Python零基礎到kaggle-Day19

  • 分享至 

  • xImage
  •  

看完文章您將學到什麼

知道集成大致概念

內文

集成

  • Bagging 關注於降低variance
    並行方法的原理是利用基礎學習器之間的獨立性,用在強model
  • Boosting 關注於降低bias
    序列方法的原理是利用基礎學習器之間的依賴關係,用在弱model
  • Stacking改進預測
    集成學習技術,通過元分類器或元回歸聚合多個分類或回歸模型

XGBoost(eXtreme Gradient Boosting)一種集成學習演算法,屬於3類常用的集成方法(bagging,boosting,stacking)中的boosting,是基於 Gradient Boosted Decision Tree (GBDT) 改良與延伸,被應用於解決監督式學習的問題

看到這串大家一定想說XGBoost每個單字都看得懂啊,但到底在幹嘛...
沒關係的,這邊我們只需要知道XGBoost是一個叫GBDT東東的改良版,然後他們都是機器學習常用的演算法,還有XGBoost在Kaggle可以獲得不錯成績
如果想深究XGBoost的朋友可以看這個
而在這兩天我們主要知道XGBoost是什麼跟怎麼用就可以了

可是我就是想知道XGBoost改良了什麼

1.GBDT將目標函數泰勒展開到一階,而XGBoost將目標函數泰勒展開到了二階。保留了更多有關目標函數的信息,對提升效果有幫助
2.GBDT是給新的基模型尋找新的擬合標簽(前面加法模型的負梯度),而XGBoost是給新的基模型尋找新的目標函數(目標函數關於新的基模型的二階泰勒展開)
3.XGBoost加入了和葉子權重的L2正則化項,因而有利於模型獲得更低的方差
4.XGBoost增加了自動處理缺失值特徵的策略。通過把帶缺失值樣本分別劃分到左子樹或者右子樹,比較兩種方案下目標函數的優劣,從而自動對有缺失值的樣本進行劃分,無需對缺失特徵進行填充預處理

反思回顧

XGBoost是個演算法,在Kaggle可以獲得不錯成績
這兩天我們主要知道XGBoost是什麼跟怎麼用就可以了

參考資料

https://medium.com/@cyeninesky3/xgboost-a-scalable-tree-boosting-system-論文筆記與實作-2b3291e0d1fe
https://mp.weixin.qq.com/s/c25uvLRF89iqePxScDojNg


上一篇
Python零基礎到kaggle-Day18
下一篇
Python零基礎到kaggle-Day20
系列文
Python零基礎到Kaggle 31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言